查看原文
其他

【百度大数据人口统计全新探索】城市人口时空分布研究新视角新工具

2017-06-05 李宇、田轲 城市数据派


墙裂推荐:【400余项城市大数据成果等你来下载】2016全国十大城市数据师个人贡献奖揭晓

招聘:【城市数据派UDParty.com】团队招募中,派姐喊你来入伙(点击看详情)



Part1城市数据派导读

日前,百度慧眼宁波市规划局达成战略合作,在宁波举办了【百度慧眼宁波规划创新实验室】签约仪式,并与合作运营单位宁波市规划设计研究院举行了初步成果的研讨会。双方将充分利用百度大数据和规划行业知识,优势互补,战略协同,从城市规划领域出发,展开多层次的合作,共同探索百度慧眼大数据平台在城市研究、城市规划、城市管理、政府咨询方面的应用

城市数据派www.udparty.com 受邀出席本次签约仪式。据了解,这也是度慧眼与传统规划行业机构第一次深入战略合作城市数据派为派友们带来了详细的报道,点击看详情:【百度慧眼宁波规划创新实验室】传统规划机构+互联网大数据平台落地!


城市数据派专访了田轲(宁波市规划设计研究院大数据团队和『百度慧眼宁波规划创新实验室』的核心成员,宁波市规划设计研究院杭州湾新区分院主任工程师、高级工程师、注册城市规划师),给派友们带来合作背后的有趣有料的故事,并且展示了部分精彩成果,点击看详情:【独家秘笈】传统规划院如何“勾搭”百度地图大数据(附成果节选)



Part2百度大数据VS官方统计人口


小派

有了如此强大的数据源,请问你们做的第一件事是什么?


李宇

面对百度提供的人口数据我们既兴奋又犹豫,兴奋的是它的功能如此强大,犹豫的是它的数据准确度我们不敢保证,因此我们先对百度大数据进行了校验。(【百度慧眼宁波规划创新实验室】核心成员,宁波市规划设计研究院杭州湾新区分院助理规划师)


田轲

是的,我们通过对比百度大数据和官方统计的人口数据,发现两者的人口城市空间分布差异存在明显的圈层现象,于是尝试通过数据相关性验证分析等方法来解释圈层现象。下面就请派友们看我们的详细研究成果吧~


人口是城市发展的根本动力,也是城市服务的根本对象。人口的集聚推动着城市的出现,也推动了城市政治、经济、文化等各项事业的发展;同时城市的发展也进一步促进了人口的集聚。


城市规划的核心是以人为本,是围绕人的需求来协调城市空间布局和各项建设所作的综合部署和具体安排。传统的城市规划主要是基于对城市的人口规模、结构的预测来安排各类用地和设施的布局。


随着城市规划的日益精细化,城市规划不仅需要人口的总体规模和结构,还需要从个体的角度精确了解人口的时空分布、资产情况、消费偏好和出行偏好等社会学特征,以此来更全面的分析城市需求,从而使得制定的规划更加合理、科学、严谨,以进一步推动城市的可持续发展,最终实现城市精准规划。


传统人口统计主要依赖国家统计局、公安局、计生办等政府部门,人口数据由各部门单位自行统计和管理,虽然较为权威但也存在以下问题。


① 口径杂乱:

由于各部门的统计口径和方法等各不相同,导致各部门统计数据交叉重复、不统一现象突出;同时各部门统计方式和口径的差异,也增加了人口数据在时空上进行对比的难度。


② 属性单一:

我国人口统计指标中,反映人口自然属性的指标较多,如人口总数、年龄、性别、民族、文化程度、婚姻状况等,但是关于人口社会属性的指标如出行特征、兴趣爱好等方面的统计较为缺失。


③ 精度较低:

我国的人口密度统计主要采用等值区域图法,即是通过区域人口数与区域面积计算得出的。该方法在大尺度上可以较为准确的反映人口密度的整体情况,但忽略了面积的变化对人口密度的影响,也忽略了统计区域内部人口密度的差异性,难以适用于中小尺度的人口分布研究。


④ 体系滞后:

目前我国正处在经济社会转型时期,人口社会的流动不断加剧,但是我国人口的统计体系、数据更新速度、数据采集可行性、理论分析模型构建等方面严重滞后于社会经济的发展,难以满足当前精准性研究的需求。


百度大数据通过手机芯片、手机设备和手机APP等方式为人们提供多种定位方案,每日为60万+APP/网站提供定位服务,日均响应位置服务请求次数突破720亿次,每10个用到地图能力的应用当中就有7个应用在使用百度地图开放平台的产品及服务。


百度大数据不仅可以通过定位系统统计全国人口的实时动态分布,还运用人工智能深度挖掘各个区域内的居住和工作人口。除此之外百度大数据还整合了公司内外数据,通过各种算法构建用户的人口画像



相比于传统官方的人口普查,基于大数据的人口统计有以下明显特征。

① 属性多

大数据所包含的容量巨大,除了可以体现用户的性别、年龄等基本人口属性特征,还可以了解OD出行特征、兴趣爱好等内容。


② 更新快

大数据的人口统计在时间上可以精确到分钟以下,能够准确的反应某个时间段内人口的变动情况。


③ 精度高

大数据的人口统计在空间上可以精确到百米以下,基本可以满足各种中小尺度的研究需求。


本文为百度慧眼宁波规划创新实验室研究成果,数据源为百度开放平台数据,已获得百度正版授权。相关数据不包含个人隐私信息。



小范围人口数据验证验证1:杭州湾汽车学院


在采用百度大数据进行城市研究之前,我们首先需要对其数据准确度进行验证,通过选取宁波市工程学院杭州湾汽车学院及宁波杭州湾新区大众汽车产业园两个小范围区域对百度大数据的时空及属性精准度与实际情况进行对比实验


宁波工程学院杭州湾汽车学院人口数据为2016年11月学校教务处获悉;宁波市杭州湾新区大众厂区人口数据为2016年11月后勤管理处获悉;百度大数据为2016年9月份统计。


宁波工程学院杭州湾汽车学院位于杭州湾新区滨海二路与兴慈八路交叉路口,面积约为34公顷,该片区目前为高校校园,目前该校园为封闭式管理,学生及教职工数量较为稳定。百度大数据显示该学校的居住人口为1644人,居住人口主要集中于学校宿舍区,男性占83.08%,年龄构成以18—24岁的人口最多,占比83.08%,本科及以上占55.54%。


宁波工程学院杭州湾汽车学院位于杭州湾新区滨海二路与兴慈八路交叉路口,面积约为34公顷,该片区目前为高校校园,目前该校园为封闭式管理,学生及教职工数量较为稳定。百度大数据显示该学校的居住人口为1644人,居住人口主要集中于学校宿舍区,男性占83.08%,年龄构成以18—24岁的人口最多,占比83.08%,本科及以上占55.54%。


通过与该校教务处沟通得知,该校总学生人数为1950人,在校后勤教职工约120人,除去该校大四毕业班外出实习不住校的学生数为450人,因此该校在校总人数为1620人左右。同时该校教务处认为百度大数据的人口画像符合该学校的人口特征。


由此可知百度大数据在总的人口数据上偏差为1.46%,在人口位置定位和人口画像上和学校真实情况基本相符。



小范围人口数据验证验证2:大众汽车产业园


宁波杭州湾新区大众汽车产业园位于新区兴慈二路和众汽路交叉口,面积为188公顷,该厂区为上海大众国内第六生产基地,目前主要从事汽车总装生产工作。


百度大数据显示大众产业园工作人口为2295人,人员主要集中于厂房内,男性占比79.94,18-24岁占比最高为42.58%,本科及以上占比为63.71%


大众产业园人口情况较为复杂,厂区职工、供应商驻厂服务人员、第三方用工人数众多,难以准确获悉该园区工作人口。经我们走访调研得知大众园区的食堂每天提供2400份午饭,由此可以推算大众产业园工作人口最多为2400人,且该园区领导非常认可百度大数据统计的人口画像。


由此可知百度大数据和该产业园的工作人口统计误差为4.3%,位置信息和人口画像基本一致。


结论:

从两处小范围验证情况来看,百度大数据在特定区域的人口数量、时空分布及社会学特征与实际情况基本相符,能够较为准确的反应人口的时空分布规律



大范围人口数据验证验证1:宁波新六区人口对比


本研究范围为2016年9月30日宁波市调整行政区划之后的宁波市新六区。宁波市新六区包括海曙区、江北区、镇海区、北仑区、鄞州区和奉化区,面积共3689.31平方公里。


官方人口是宁波公安局2014年12月统计数据,包括户籍人口和流动人口。百度慧眼统计人口是2016年9月份的数据,涵盖居住人口、工作人口、教育水平、年龄构成等数据。


本研究先将宁波市新六区切分成数百个面域,然后用相关软件将面域文件转为转折点坐标的Excel文件。


然后再导入百度慧眼系统,得出热力图、人口画像、客流量、商业设施等多种数据加以分析研究。


据宁波市公安局统计资料显示,宁波市新六区2014年总人口为508.78万人,按照往年宁波市人口机械增长率3.5%计算,2016年宁波市新六区总人口为545.02万人,而百度统计的2016年宁波新六区的居住人口为548.18万人,比官方人口多0.58%。


因此在宁波市区范围来看,百度统计人口和官方普查人口基本一致。



“同心圆现象”人口数据对比空间分布差异


我们把人口对比放大到街道尺度上,可以明显的发现人口对比分布存在明显的同心圆现象,即自城市中心区至外围区域的人口差异存在圈层变化特征。


(1)中心灰色圈层的官方普查人口多于百度大数据统计人口,说明在该区域落户的人口有相当比例并未在该区域居住。该圈层覆盖了宁波的主要中心区,半径约为3.5KM。该圈层集中了宁波大量的优质的教育、医疗等公共服务设施(如宁波第一医院、效实中学数量);该圈层还包含了宁波的商业中心天一广场和各种知名旅游景点如天一阁等;该圈层的小区多为老小区,交通较为拥堵,主导产业以服务业为主。



(2)外围红色圈层的官方普查人口少于百度大数据统计结果,说明该区域存在大量未能被官方所统计的流动人口。该圈层主要为城市近郊区的新城,半径约为18KM。该圈层的各种商业中心和公服设施较为完善;该圈层的小区多以新建为主,居住环境品质较高,交通基本通畅,产业以制造业及高新技术研发为主。


(3)最外围的灰色圈层的官方普查人口又多于百度大数据统计结果,说明该区域部分户籍人口并未在该区域居住。该圈层为城市远郊区,半径约为25KM。该圈层的公服和各种基础设施建设相对较弱,居住用地多以村庄用地为主。


在发现人口数据差异存在同心圆现象后,我们估计这一现象可能与人口密度、年龄构成、性别构成、IOS用户占比等十余项指标存在关联性,但通过各种数据相关性验证分析后,我们发现人口差异仅与流动人口占比存在显著相关性,相关性系数为0.715。


由于人口数据差异与流动人口存在显著相关性,因此作者开始分析流动人口空间占比图,发现其也存在明显同心圆现象,即中心区流动人口占比较低,近郊区流动人口占比最高,远郊区流动人口占比较低且倾向集中于各自区县的中心。由于官方统计人口在流动人口管理方面存在覆盖面不足等问题,而百度大数据能够准确的覆盖包括流动人口的所有居住人群,因此流动人口占比越高的街道,百度人口越高于官方统计人口。


我们从城市中心区、近郊区、远郊区中各自选取了一个典型街道,以此来进一步分析不同圈层的社群差异。月湖街道是城市中心区百度统计人口远低于官方普查人口的街道,实际居住人口仅有官方统计的53.35%;潘火街道是新城及近郊区人口百度统计人口远高于官方统计人口的街道,实际居住人口超过统计人口65.36%;松岙镇是城市远郊区百度统计人口远低于官方统计人口的街道,仅有官方统计人口的30.74%在此实际居住。


通过对三个街道的人口画像对比分析得出,中心区的月湖街道人口老龄化现象最为严重(45岁以上占比12.97%),流动人口占比较少(流动人口占比为22.52%),高学历人才占比最高(本科及以上人才占比为20.74%),居住人群的工作通勤距离较近,基本都在4km以内。


对导致百度大数据与官方统计数据差异存在圈层现象的原因,我们认为是由以下原因导致。


① 由于城市中心区的交通拥堵、住宅老化、居住环境品质不高等因素,这些户籍人口中的一部分实际已经迁至近郊新城居住。城市中心区部分户籍人口并没有在中心区居住,仅将户籍落户在中心城区以享受较好的教育和医疗服务。再加上中心城区居住成本过高导致流动人口占比较少,且人口老龄化现象严重,以上这些原因导致了百度统计人口少于官方普查人口。


② 城市近郊区的的居住环境较高,居住成本相对较低,交通条件较为便利,且各项基础设施和公服设施较为完善,因此吸引了大量户籍人口和流动人口居住在此,这些人口并没有被官方普查所统计,因此导致百度统计人口明显多于官方普查人口。


③ 城市远郊区由于工作机会较少、公服基础较差等原因,导致部分本地居民外出就业,再加上流动人口占比少,人口老龄化现象突出等原因共同导致了百度统计人口明显少于官方普查人口。



总结、问题、展望百度大数据:全新的研究视角&工具


本次对比分析研究可能首次发现百度大数据的人口统计和官方普查人口的数据差异存在着同心圆的规律,且人口对比差异还和流动人口占比存在显著相关性


总体来看,百度大数据基本真实可靠,可以较为准确的反映人口的时空分布信息,同时还能刻画人的多种社会属性和兴趣特征,可以满足当前人口综合性研究需求,为城市规划设计提供了全新的研究视角及研究工具。



百度大数据存在的问题:


① 百度人口统计的覆盖面有待于进一步提高,目前来看百度的人口统计在老人、儿童覆盖面偏低。


② 百度目前的扩样算法主要都是平均考虑,希望以后可以按照不同地区实施差别化对待。


未来展望:百度大数据能替代传统人口统计吗?


总的来看,百度统计的人口数据可以给我们提供一个新的、动态的视角去看待城市人口的时空分布规律,但不能完全替代传统的统计数据。因为传统的人口统计方法和中国的户籍制度挂钩,可以准确的收集公民出生、死亡、亲属关系、法定地址等人口基本信息,以此来保障公民在就业、教育、社会福利等方面的权益。


本研究主要在宁波市域范围内研究人口变化规律,希望以后可以扩大研究范围,进行跨省跨市的人口规律研究。本研究由于数据源等方面原因,并没有涉及时间尺度上的人口变动对比情况,希望日后可以进行尝试。



【参考资料】

【1】  数据增强设计——新数据环境下的规划设计回应与改变[J]. 龙瀛,沈尧.  上海城市规划. 2015(02)

【2】  基于手机数据识别上海中心城的城市空间结构[J]. 钮心毅,丁亮,宋小冬.  城市规划学刊. 2014(06)

【3】  经济普查数据在城市总体规划中应用的探索与思考[J]. 骆悰,申立,苏红娟,朱春节,李长风.  上海城市规划. 2015(06)

【4】  大数据时代统计学重构研究中的几个热点问题[J]. 田茂再. 统计研究. 2015(05)

【5】  利用手机定位数据的用户特征挖掘[J]. 陈佳,胡波,左小清,乐阳.  武汉大学学报(信息科学版). 2014(06)




这里有好多大数据干货,

快到城市数据派官网看去



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存